V současné době píšu základní analyzátor pro XML příchuť. Jako cvičení implementuji analyzátor řízený tabulkou LL. Toto je můj příklad gramatiky BNF: % datový řetězec názvu tokenu %% / * LL (1) * / doc: elem elem: "<" open_tag open_tag: name attr close_tag close_tag: ">" elem_or_data "" name ">" | „/>“ ; elem_or_data: "<" open_tag elem_or_data | data elem_or_data | / * epsilon * / ; attr: name ":" řetězec attr | / * epsilon * / ; Je tato gramatika správná? Každý koncový literál je mezi uvozovkami. Abstraktní terminály jsou specifikovány% tokenem. Kóduji ručně psaný lexer, který převede můj vstup do seznamu tokenů. Jak bych tokenizoval abstraktní terminály?
2021-03-03 08:10:30
Klasickým přístupem by bylo napsat regulární výraz (nebo jiný rozpoznávač) pro každý možný terminál. To, co nazýváte „abstraktní“ terminály, které jsou naprosto konkrétní, jsou ve skutečnosti terminály, jejichž přidružené vzory rozpoznávají více než jeden možný vstupní řetězec. Řetězec skutečně rozpoznaný (nebo nějaká vypočítaná funkce tohoto řetězce) by měl být předán analyzátoru jako sémantická hodnota tokenu. Nominálně v každém bodě vstupního řetězce spustí tokeniser všechny rozpoznávače a vybere ten s nejdelší shodou. (Toto je takzvané pravidlo „maximálního žvýkání“.) Toto lze obvykle optimalizovat, zvláště pokud jsou všechny vzory regulárními výrazy. (F) lex tuto optimalizaci provede například za vás. Komplikace ve vašem případě spočívá v tom, že tokenizace vašeho jazyka závisí na kontextu. Zejména když je cíl elem_or_data, jediné možné tokeny jsou <, a "data". Uvnitř tagu však „data“ nejsou možná a jsou možné tagy „name“ a „string“ (mimo jiné). Je také možné, že hodnota atributu může mít stejnou lexikální formu jako klíč (tj. Jméno). V samotném XML musí být hodnotou atributu citovaný řetězec a použití nekótovaného řetězce bude označeno jako chyba, ale určitě existují jazyky podobné XML (například HTML), do kterých lze vložit hodnoty atributů bez mezer. necitováno. Protože lexikální analýza závisí na kontextu, musí být lexikálnímu analyzátoru předána (nebo mít přístup) další informace definující lexikální kontext. To je obvykle reprezentováno jako jedna výčtová hodnota, kterou lze vypočítat na základě několika posledních vrácených tokenů nebo na základě PRVNÍ sady aktuálního zásobníku analyzátoru. 2 | Tvoje odpověď StackExchange.ifUsing ("editor", function () { StackExchange.using ("externalEditor", function () { StackExchange.using ("snippets", function () { StackExchange.snippets.init (); }); }); }, „code-snippets“); StackExchange.ready (funkce () { var channelOptions = { tagy: "" .split (""), id: "1" }; initTagRenderer ("". split (""), "" .split (""), channelOptions); StackExchange.using ("externalEditor", function () { // Po výstřižcích musíte vypálit editor, pokud jsou úryvky povoleny if (StackExchange.settings.snippets.snippetsEnabled) { StackExchange.using ("snippets", function () { createEditor (); }); } else { createEditor (); } }); funkce createEditor () { StackExchange.prepareEditor ({ useStacksEditor: false, heartbeatType: 'answer', autoActivateHeartbeat: false, convertImagesToLinks: true, noModals: true, showLowRepImageUploadWarning: true, reputationToPostImages: 10, bindNavPrevention: true, postfix: "", imageUploader: { brandingHtml: "Používá \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "height = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46,2665 7,94324 47,1084 7,58816C47.4091 7,46349 47,7169 7,36433 48,0099 7,26993C48,9099 6,97977 49,672 6,73443 49,672 5,93063C49,672 5,22043 48,9832 4,61182 48,1414 4,61182C47,4335 4,61182 46,7256 4,91650 4,416 43,1481 6,59048V11.9512C43.1481 13,2535 43,6264 13,8962 44,6595 13,8962C45,6924 13,8962 46,1709 13,2535 46,1709 11,9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10,1419432,144,14,144,14,144,44 41,5985 12,6954 41,5985 10,1419V6,59049C41,5985 5,28821 41,1394 4,66232 40,1061 4,66232C39,0732 4,66232 38,5948 5,2881 38,5948 6,59049V9,60062C38,5948 10,8521 38,2696 11,5455 37,0451 11,5455C35,535 521 35,4954 960062V6.59049C35.4954 5,28821 35,0173 4,66232 34,0034 4,66232C32,9703 4,6632 32,492 5,28821 32,492 6,59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evenodd \ " = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.9913 4.66231 28.49.549.549.549.549.54.4550 .1369 4,56087 21,0134 6,57349 21,0134 9,27932C21.0134 11,9852 23,003 13,913 25,3754 13,913C26,5612 13,913 27,4607 13,4902 28,1109 12,6616C28.1109 12,7229 28,1161 12,77,712,123,121,121,121,121,121,121 15.2321 24.1352 14,9821 23,5661 14,7787 C23,176 14,6393 22,8472 14,5218 22,5437 14,5218C21,7977 14,5218 21,2429 15,0123 21,2429 15,6878721,2429 16,7375 22,9072 17,6335 25,6622 17,6335ZM24,1317 7,287 7,247 26,2417 26,2817 27.2119 7,09766 28,0918 7,94324 28,0918 9,27932C28.0918 10,6321 27,2311 11,5116 26,1024 11,5116C24,9737 11,5116 24,1317 10,6491 24,1317 9,2923232 \13,8962C19,3298 13,8962 19,8079 13,2535 19,8079 11,9512V8.12928C19,8079 5,82936 18,4879 4,62866 16,4027 4,62866C15,1594 4,62866 14,279 4,98375 13,3609 5,88013C12,653 5,05154 11,65,6 4,66666 72866 10,357326 11,356 136 13,32 96 13,9157 13,2535 13,9157 11,9512V8,90741C13,9157 7,58817 14,3365 6,91179 15,4269 6,91179C16.4027 6,91179 u .31675 5,28821 2,83866 4,66232 1,82471 4,66232C0,791758 4,66232 0,313354 5,1821,2858 0,13352 6,13848 13,2535 3,316 75 11,9512V6. Z \ "fill = \" # 1BB76E \ "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e", contentPolicyHtml: „Uživatelské příspěvky licencovány pod \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (obsahové zásady) \ u003c / a \ u003e", allowUrls: true }, onDemand: true, discardSelector: ".discard-answer" , okamžitěShowMarkdownHelp: true, enableTables: true, enableSnippets: true }); } }); Děkujeme, že jste přispěli odpovědí na přetečení zásobníku! Nezapomeňte na otázku odpovědět. Uveďte podrobnosti a sdílejte svůj výzkum! Ale vyhnout se ... Žádáme o pomoc, objasnění nebo reagujeme na další odpovědi. Vytváření prohlášení na základě názoru; Podpořte je referencemi nebo osobními zkušenostmi. Chcete-li se dozvědět více, přečtěte si naše tipy na psaní skvělých odpovědí. Koncept uložen Koncept zahozen Zaregistrujte se nebo se přihlaste StackExchange.ready (funkce () { StackExchange.helpers.onClickDraftSave ('# login-link'); }); Zaregistrujte se pomocí Google Zaregistrujte se pomocí Facebooku Zaregistrujte se pomocí e-mailu a hesla Předložit Zveřejněte jako host název E-mailem Povinné, ale nikdy zobrazené StackExchange.ready ( funkce () { StackExchange.openid.initPostLogin ('. New-post-login', 'https% 3a% 2f% 2fstackoverflow.com% 2fquestions% 2f54745855% 2ftokenize-abstract-terminal-in-ll-grammar% 23new-answer', 'question_page' ); } ); Zveřejněte jako host název E-mailem Povinné, ale nikdy nezobrazené Zveřejněte svou odpověď Vyřadit Kliknutím na „Odeslat odpověď“ vyjadřujete souhlas s našimi podmínkami služby, zásadami ochrany osobních údajů a zásadami používání souborů cookie Toto není odpověď, kterou hledáte? Podívejte se na další otázky se štítkem parsování lexer bnf ll rekurzivní sestup nebo se zeptejte na vlastní otázku.